欢迎阅读本教程。如发现疏漏或有改进建议,欢迎在 GitHub 提 Issue 或 PR。
Skip to content

1.2 预训练知识(Pretrained Knowledge)

alt text

什么是预训练知识?

你小时候是怎么学会写作的?大概是通过大量阅读。 alt text AI 也是一样——AI 系统通过阅读来自互联网的海量文本,学习其中的语言模式。理解 AI 读过哪些内容,能帮助你更好地预测它的行为。

AI 模型可以回答各种各样的问题,例如:

  • "我把手机掉进汤里了,该怎么办?"
  • "为什么猫会盯着墙看,好像在看鬼一样?"(原来猫能感知人类察觉不到的细微声音和动静)
  • "发射到太空的那张黑胶唱片上录了什么?"(NASA 的旅行者 1 号飞船,1970 年代发射,如今距地球约 250 亿英里,唱片上收录了 55 种语言的问候语)

alt text

AI 的知识来源

AI 模型从多种多样的来源中学习,主要包括: alt text

来源类型示例
社交媒体与论坛Reddit、Quora 等
书籍各类出版物
百科全书Wikipedia 等
新闻网站各大媒体
学术研究文章论文、期刊
其他互联网内容博客、网页等

这些来源合计包含数万亿甚至数十万亿个词,共同构成了 AI 模型的"大脑"。


知识频率与可靠性

互联网上不同类型的内容出现频率不同,AI 的预训练知识也因此反映了这种分布规律。 alt text

知识丰富的领域(互联网内容多):

  • 烹饪(普遍的人类经验,相关文章极多)
  • 娱乐、电影、名人

知识相对有限的领域(互联网内容少):

  • 专业术语,如"类星体"(quasar)——由超大质量黑洞驱动的极亮天体,相关文章远少于烹饪类内容

语言分布:

  • 互联网内容以英语为主
  • 其他语言如粤语(全球超过 8000 万人使用)的内容占比不足 0.1%

AI 完全不了解的内容:

  • 你公司的私有数据、内部文件等未公开在互联网上的信息

实用规则: 某类信息在互联网上出现的频率越高,AI 对该话题的回答通常越可靠。


AI 对拼写错误的容忍度

alt text 由于 AI 从包含大量拼写错误的互联网内容中学习,它对错别字有很强的理解能力。例如:

  • can you cook eggs in microwave(有拼写错误)
  • can you cook eggs in the microwave(标准写法)

两者对 AI 来说几乎没有区别。因此,使用 AI 时不必花太多时间纠正每一个语法错误,快速输入即可。


预训练知识的局限性

alt text 预训练知识并非万能,主要存在以下局限:

  1. 包含误解和过时信息:互联网上本身存在大量错误内容,AI 也会从中学习
  2. 缺乏实时信息:预训练知识有截止日期,无法获取最新动态

掌握如何提示 AI 以减少误解、避免过时信息,是使用 AI 的重要技能之一。


小结

  • AI 的预训练知识来自互联网上的海量文本
  • 知识的可靠性与该话题在互联网上的内容丰富程度正相关
  • AI 对拼写错误有较强容忍度,无需过度纠正
  • 预训练知识不包含私有数据,也不具备实时信息能力
  • 对于需要实时信息的场景,需要结合网络搜索功能使用

下一节将介绍如何通过网络搜索弥补预训练知识的不足。


预训练知识这个概念,让我想到一个很贴切的比喻:AI 就像一个博览群书、见多识广的人,但他在某个时间点之后就与世隔绝了,不再接触新信息。他能流利地谈论历史、科学、文化,但对昨天发生的事一无所知。

有几点值得特别关注:

"互联网偏见"问题:AI 的知识分布并不均匀,它更擅长英语、更了解西方文化、更熟悉热门话题。这意味着当你用中文问一个小众的本地问题时,AI 的回答质量可能远不如用英文问一个全球性话题。这不是 AI 的"错",而是训练数据本身的结构性偏差。

拼写容忍度的背后逻辑:AI 之所以能理解错别字,是因为它见过无数人犯同样的错误——这其实是一种"群体智慧"的体现。但这也意味着,如果某个错误写法在互联网上极为普遍,AI 可能会把错的当成对的。

私有数据的边界:公司内部文档、个人日记、未发布的代码——这些 AI 完全不知道。这既是隐私保护的优点,也是使用 AI 处理专业工作时需要额外补充上下文的原因。在实际工作中,我们往往需要把相关背景信息"喂给"AI,才能得到真正有用的答案。